在标准在线多类分类模型中,学习者对对手进行重复的游戏。在每个回合t∈[t]中,对手选择一个标记的实例(x t,y t)∈X×y,并向学习者揭示x t。使用访问对假设类H的X X,学习者可能会进行随机预测ˆ yt∈Y。对手然后揭示真实的标签,然后学习者遭受损失1 {y t = y y t}。总体而言,学习者的目的是输出预测,以便其预期的累积损失并不大于H中所有固定假设中最小的累积损失。这种在线多类分类的标准设置通常称为全信息设置,因为学习者可以在每个回合结束时观察真正的标签。也许更实用的设置是匪徒反馈设置,在每个回合结束时,学习者无法观察到真正的标签,而只能指示其预测是否正确(Kakade,Shalev-Shalev-Shwartz和Tewari,Tewari,2008年)。此设置的一个应用程序是在线广告,广告商向用户推荐广告(标签),但只能观察用户是否单击广告。
主要关键词